← 返回第3章导航

3.2 Outliers

异常值 - 识别和处理数据中的极端值

学习目标

通过本节学习,你将掌握:

  • 异常值概念:理解异常值的定义和分类
  • IQR方法:基于四分位数的异常值识别
  • 标准差方法:基于均值与标准差的异常值识别
  • 数据清洗:合理处理异常值的方法和原则
  • 实际应用:异常值在数据分析中的重要性

核心公式

基于四分位数(IQR)

\[\text{异常值} > Q_3 + k \times \text{IQR} \quad \text{或} \quad \text{异常值} < Q_1 - k \times \text{IQR}\]

其中 \( k \) 通常为 1.5

基于均值与标准差

\[\text{异常值} > \bar{x} + k\sigma \quad \text{或} \quad \text{异常值} < \bar{x} - k\sigma\]

其中 \( k \) 通常为 2

3.2 Outliers - 导航 ← 返回第3章导航

3.2 Outliers

异常值 - 识别和处理数据中的极端值

学习目标

通过本节学习,你将掌握:

  • 异常值概念:理解异常值的定义和分类
  • IQR方法:基于四分位数的异常值识别
  • 标准差方法:基于均值与标准差的异常值识别
  • 数据清洗:合理处理异常值的方法和原则
  • 实际应用:异常值在数据分析中的重要性

核心公式

基于四分位数(IQR)

\[\text{异常值} > Q_3 + k \times \text{IQR} \quad \text{或} \quad \text{异常值} < Q_1 - k \times \text{IQR}\]

其中 \( k \) 通常为 1.5

基于均值与标准差

\[\text{异常值} > \bar{x} + k\sigma \quad \text{或} \quad \text{异常值} < \bar{x} - k\sigma\]

其中 \( k \) 通常为 2